小白学AI系列之0：马蜂窝有几种捅法？

星环科技 2022-07-17

大家好，“小白学AI系列”从今天开始连载啦！这个系列将集思广益，收集AI研发小伙伴在脑子发热时想到的有趣切入点，用说人话的方式，带小白进入AI学习的大门。AI不应该是用来放卫星、骗热钱的玩物，不是一学就令人脱发的枯燥代码，也不是有了自我意识就要毁灭人类的终结者。它没有那么炫酷，本质上是利用数学工具和计算能力对人类智能活动的一种模拟。

手机拿好，眼睛不要离太近，让我们开始吧。

这两天，你的朋友圈可能被这篇文章刷屏了：《估值175亿的旅游独角兽，是一座僵尸和水军构成的鬼城？》。乎睿数据发现，马蜂窝引以为核心资产的2100万条“真实点评”，有很多是从同类网站那儿抄袭得来的。我们对事件本身不做评价，毕竟吃瓜群众还没看到故事的全貌，只挑熟悉的技术聊聊：乎睿数据如何判断马蜂窝中存在大量抄袭的信息？有没有更加智能的方式分析更大数量级的用户点评？AI能用于监控用户数据作假吗？

批量获取信息：爬虫

爬虫是一种按照特定规则，自动抓取网络信息的程序。假设你想获取豆瓣电影排名前100的动作片简介，你大可以上班时间摸鱼，挨个点开，复制简介，粘贴到记事本。（小心老板，祝您平安。）这样很锻炼耐心和手部肌肉群。或者，你也可以用爬虫来做这件事，基本上大家都选择Python来做，大神早已将大量的规则、操作集成为Python库，比如BeautifulSoup、Scrapy、Selenium等。有的库帮助你伪装为浏览器和鼠标点击行为，而更常见的是识别网页信息对应的标签。让我们打开马蜂窝，搜索杨超越的家乡：江苏大丰，目的地选择大丰麋鹿园。

你眼中的网页长这样：

浏览器眼中的网页是这样：

如果有人要量抓取大丰麋鹿园的评论，就告诉爬虫：标签里class=”rev-txt”的一律拿下。

信息处理：图形化展示 + 自然语言处理

乎睿数据在解读马蜂窝点评数据时用到了简单的图形化展示：

由于爬虫获取的数据带有发布时间等信息，通过图形化展示，就能方便地看到大量数据呈现的形态和趋势。大量用户集体发言，集体禁声，发表评论的时间与工作时间高度重合等特征，在图表上一览无余，让数据说话。

此外，乎睿数据团队还发现了点评者时男时女的诡异现象：

阅读理解可以说是很细心了。但是这样找bug虽然其乐无穷，但是费时间啊，如果我想分清一千万人中有多少人雌雄同体，有办法吗？

还真有。自然语言处理(NLP)是AI中的热门方向之一。通过这个技术，我们可以教会程序理解点评中蕴含的信息，并进行更高级的处理。我们可以知道用户最常用的词汇是什么，是满意还是吐槽。目前的NLP已经可以总结段落大意，并判断写作者的感情倾向。这样，程序就能汇总大量用户的态度和感情倾向，用于后续更高级的处理。有兴趣的小白入门也简单，记得上周发布的智子人工智能平台Sophon吗？NLP相关的经典算法拖拽出来就能用了，何等快节奏的AI工程师入门：

AI用于反欺诈、智能投资研究的场景

乎睿数据团队质疑的问题可能只是行业生态的冰山一角。如果实锤落地，各家依赖于用户生成内容的网站又该如何监督自身的数据真实性呢？

用户数量巨大的前提下，人工审核信息真伪的效率是远远跟不上需求的。集成了AI的用户画像系统能很好地满足这一需求。还是以马蜂窝为例，通过NLP技术，我们可以知道用户的消费、点评记录，还有他们的各种评价。基于这些信息，用户画像系统可以判别出他们的大致属性：

如果我们像上文一样，要揪出雌雄同体的虚假评论者，就可以在这套画像系统中自定义，精准排雷，即维护了网站声誉，又巩固了投资者的信心。更加棒的是，这一切都可以让一个稍微受点训练的小白在Sophon中完成。

结语

老话说的好：能动手的，尽量别哔哔。如果某个技术令你心动，最好的学习方式并不是啃大部头，试图掌握一切知识之后才动手。不是的。你可以通过搜索引擎获得入门知识，然后在项目中积累，通过失败定位知识盲点，不耻下问，厚着脸皮前进。

小白学AI系列和你一同进步。

点击或回复关键词，查看相关内容

公司

简介 | 星环科技成长大事记

投资 | 星环科技获腾讯领投2.35亿C轮融资

新华网专访 | 中国科技企业应培育和掌握核心技术